Wykład 1. Typowe zagadnienia statystyki matematycznej Przykład 1. Wyniki doświadczenia, np. mierzenie długości przedmiotu. wyniki pomiarów: x 1, x 2, x 3,..., x n jako przybliżoną wartość długości przyjmujemy x = 1 n (x 1 + x 2 + x 3 + + x n ) - średnia arytmetyczna Przykład 2. Sondaż rozkładu zwolenników partii A, B, C, D, E w populacji N osób. Wybieramy losowo n << N osób i przeprowadzamy sondaż. Wyniki sondażu: Partia Liczba zwolenników Procentowo Przewidywany rozkład liczby w próbce zwolenników ˆN i w populacji A n 1 p 1 % ˆN1 B n 2 p 2 % ˆN2 C n 3 p 3 % ˆN3 D n 4 p 4 % ˆN4 E n 5 p 5 % ˆN5 gdzie ˆN 1 = Np 1, ˆN2 = Np 2, ˆN3 = Np 3, ˆN4 = Np 4, ˆN5 = Np 5, Estymatory: przewidywane, przybliżone wartości interesujących nas wielkości. W przykładach wielkości x, ˆNi N i, i = 1, 2, 3, 4, 5 są estymatorami. Regresja: cały proces wyznaczania estymatorów Podstawowe pojęcia statystyki Populacja generalna - zbiór dowolnych elementów, nieidentycznych z punktu widzenia badanej cechy. Próba, próbka - część, podzbiór populacji, podlegający bezpośrednio badaniu ze względu na ustaloną cechę, w celu wyciągnięcia wniosków o kształtowaniu się wartości tej cechy w populacji. Liczebność próby - liczba elementów populacji wybranych do próby. Próba losowa - próba, w której dobór z całej populacji dokonany został w drodze losowania, tzn. w taki sposób, że jedynie przypadek decyduje o tym, który element populacji wchodzi do próby.
Próba reprezentacyjna - próba, której struktura pod względem badanej cechy nie różni się istotnie od struktury populacji generalnej. Próba reprezentacyjna jest jak gdyby miniaturą populacji generalnej, daje więc podstawę do wysnuwania prawidłowych o niej wniosków. Uzyskiwanie próby reprezentacyjnej odbywa się przez odpowiedni dobór właściwego losowania. Losowanie niezależne - schemat losowania próby ze zwracaniem każdego wylosowanego elementu w trakcie losowania tak, że jeden element może być wybrany do próby więcej niż jeden raz. Losowanie zależne - schemat losowania bez zwracania każdego wylosowanego elementu populacji generalnej tak, że jeden element populacji może zostać wylosowany do próby tylko raz. Przestrzeń próby - zbiór wszystkich możliwych wyników próby o zadanej wcześniej liczebności n. Rozkład populacji - rozkład wartości badanej cechy statystycznej w całej zbiorowości. Parametry populacji - parametry rozkładu badanej cechy w populacji. Charakteryzują one ten rozkład. Parametry dzielimy na grupy: a) miary skupienia (średnia arytmetyczna, mediana,... ), b) miary rozproszenia (wariancja, odchylenie standardowe,... ), c) miary asymetrii, d) miary korelacji przy badaniu populacji ze względu na wiele cech. Statystyka z próby - zmienna losowa bedąca dowolną funkcją wyników próby losowej, np. średnia arytmetyczna wyników próby x, statystyka pozycyjna rzędu 0.5, czyli mediana. Podstawowe statystyki. 1. Wartość średnia próbki (średnia arytmetyczna) x = 1 n Przykłady innych średnich używanych w zastosowaniach matematyki - średnia geometryczna liczb dodatnich x k g = n x 1 x 2... x n - średnia harmoniczna liczb dodatnich n h = 1 x 1 + 1 x 2 +... 1 x n
- średnia potęgowa liczb dodatnich p (r) = 1 r n x r k Przykład 3. W celu wyznaczenia długości przedmiotu w sposób możliwie jak najbadziej precyzyjny wykonano n = 10 pomiarów otrzymując wyniki: 24.3 mm, 24.6 mm, 24.4 mm, 24.7 mm, 24.4 mm, 24.3 mm, 24.2 mm, 24.5 mm, 24.4 mm, 24.8 mm. Jako przybliżoną wartość długości przyjęto x = 1 n (x 1 + x 2 +... x n ) = 24.46 mm Przykład 4. Promienie 5 kół wynoszą odpowiednio 5.5 cm, 6.2 cm, 4.8 cm, 5.4 cm, 6.4 cm. Znaleźć promień r koła, którego pole powierzchni pomnożone przez 5 jest równe sumie pól danych okregów. Rozwiązanie. Odpowiednie równanie ma postać π(r 2 1 + r 2 2 + r 2 3 + r 2 4 + r 2 5) = 5 π r 2 Skąd 1 r = 5 (r2 1 + r2 2 + r3 2 + r4 2 + r5) 2 = 5.6895. r jest średnią potęgową rzędu 2 promieni r 1, r 2,..., r 5. 2. Medianą lub wartością środkową - którą oznaczamy m e - próbki x 1, x 2,..., x n nazywamy środkową liczbę w uporządkowanej niemalejąco próbce x (1) x (2) x (3) x (n), dokładniej { x (n+1)/2, gdy n jest nieparzyste m e = ( ) x(n/2) + x (n/2+1), gdy n jest parzyste 1 2 3a. Wartością modalną (modą, dominantą) m 0 próbki x 1, x 2,..., x n o powtarzajacych się wartościach nazywamy najczęściej powtarzającą się wartość (o ile istnieje), nie będącą x min ani też x max, w skrócie x (1) < < x (l) = x (l+1) = = x (l+k 1) < x (n), dotyczy największego k. 3b. Kwartyle: dolny (pierwszy) Q 1 i górny (trzeci) Q 3. Niech x (1) x (2) x (3) x (n) oznacza uporzadkowaną próbkę x 1, x 2,..., x n.
Wartości w uporządkowanej próbce dzielimy na dwie grupy: do pierwszej zaliczamy wszystkie wartości mniejsze od mediany i medianę, do drugiej zaś medianę i wszystie wartości większe od niej. Kwartylem dolnym Q 1 próbki nazywamy medianę pierwszej grupy wartości, a kwartylem górnym Q 3 - medianę drugiej grupy wartości. 3c. Odchylenie ćwiartkowe Q określamy wzorem 4. Miary rozproszenia danych Q = Q 3 Q 1 2 4a. Rozstęp - przedział [x min, x max ], r = x max x min. 4b. Wariancja (wariancja populacji, dyspersja, średnie odchylenie kwadratowe populacji) s 2 określona jest wzorem s 2 = 1 (x k x) 2 n równoważne wzory s 2 = 1 n x 2 k x lub s 2 = 1 n (x k a) 2 ( x a) 2 przy dowolnym a. Uwaga. w zastosowaniach używa się również wariancji poprawionej (wariancji z próby) ŝ ŝ 2 = 1 (x k x) 2 n 1 4c. Odchylenie standardowe s s = 1 n (x k x) 2 4d. Odchylenie przeciętne d 1 od wartości średniej x d 1 = 1 n x k x 4e. Odchylenie przeciętne d 2 od mediany m e d 2 = 1 n x k m e
4f. Odchylenie przeciętne d od liczby a d = 1 n x k a 5. Momenty 5a. Moment zwykły rzędu l: m l = 1 n x l k, l N, 5b. Moment centralny rzędu l M l = 1 n (x k x) l, l N, 5c. Momenty absolutne rzędu l a l = 1 n x k l, b l = 1 n x k x l, l N, Inne wielkości charakeryzujące wartości próbki 6a. Współczynnik asymetrii (skośność) g 1 = n M 3 (n 1)(n 2) s 3 6b. Współczynnik koncentracji (skupienia, kurtoza) K = M 4 s 4 6c. Wspólczynnik spłaszczenia (eksces) 6d. Współczynnik zmienności g 2 = K 3 = M 4 s 4 3. ν = 100% s x
6e. Współczynnik nierównomierności Statystyki. Podsumowanie H = d 1 x 100% Najważniejsze dla nas statystyki: średnia wartość x, wariancja s 2, wariancja poprawiona ŝ, mediana, kwartyle, momenty. Opracowanie wyników próby losowej (statystyka opisowa) 1. uporządkowanie wyników: x (1) x (2) x (3) x (n), x 1, x 2, x 3, x 4,..., x n a = x (1) = min (x 1, x 2,..., x n ), b = x (n) = max (x 1, x 2,..., x n ) 2. pogrupowanie wyników w klasy: dzielimy przedział [a, b] na m części (najczęściej o równej długości h): a = c 0 < c 1 < c 2 < c 3 < < c m = b, h = c i c i 1 = (b a)/m, Uwaga: nie ma w pełni ogólnych, precyzyjnie określonych zasad doboru h (równoważnie m), są jedynie pewne praktyczne rady: np.: m 5 ln n, m = 1 + 3.322 ln n lub m = n,... Przykład 5. liczba pomiarów n liczba klas m 30-60 6-8 60-100 7-10 100-200 9-12 200-500 11-17 500-1500 16 25 Także nie ma w pełni ustalonych zasad na wybranie wartości dla dolnej granicy przedziału a, zwykle przyjmujemy nieco mniej (o połowę rzędu dokładności danych) niż najmniejsza wartość x i w próbce. 3. wyznaczenie liczebności n i elementów x 1, x 2, x 3, x 4,..., x n w każdym poszczególnym przedziale [c i 1, c i ),i = 1, 2,..., m. Oczywiście m n i = n. Budujemy szereg rozdzielczy: ( x 1, n 1 ), ( x 2, n 2 ),..., ( x m, n m ), gdzie x i są środkami przedziałów (klas), a n i są licznościami w poszczególnych klasach. Tak i=1
otrzymany nowy szereg jest przybliżeniem oryginalnego, ale jego struktura jest znacznie prostsza. 4. Histogram - graficzna ilustracja szeregu rozdzielczego: ( x 1, n 1 ), ( x 2, n 2 ),..., ( x m, n m ), (często n i zastępujemy przez n i /n). Zadanie 1. Z populacji generalnej pobrano n = 50 elementową próbkę i przebadano ze względu na wartości cechy X. Otrzymano wyniki: 3.6, 5.0, 4.0, 4.7, 5.2, 5.9, 4.5, 5.3, 5.5, 3.9, 5.6, 3.5, 5.4, 5.2, 4.1, 5.0, 3.1, 5.8, 4.8, 4.4, 4.6, 5.1, 4.7, 3.0, 5.5, 6.1, 3.8, 4.9, 5.6, 6.1, 5.9, 4.2, 6.4, 5.3, 4.5, 4.9, 4.0, 5.2, 3.3, 5.4, 4.7, 6.4, 5.1, 3.4, 5.2, 6.2, 4.4, 4.3, 5.8, 3.7. Opracować statystycznie otrzymane wyniki. Rozwiązanie. Liczebność próbki n = 50, wybieramy liczbę klas, np. k = 7, znajdujemy x min = 3.0, x max = 6.4. Stąd rozpiętość próbki R = x max x min = 3.4, i R/k 0.49, przyjmujemy szerokość klas h = 0.5. Ponieważ dokładność danych jest równa α = 0.1, więc jako dolną granicę pierwszej klasy przyjmujemy x min 0.05 = 2.95. Nr klasy i Klasy Grupowanie wartości Środki klas x i Liczebność klas n i próbki 1 2.95 3.45 3.2 4 2 3.45 3.95 3.7 5 3 3.95 4.45 4.2 7 4 4.45 4.95 4.7 9 5 4.95 5.45 5.2 12 6 5.45 5.95 5.7 8 7 5.95 6.45 6.2 5 rys. 1. przykładowy podział danych na klasy
12 n_i 10 8 6 4 2 0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 x rys. 2. Histogram - na osi x-ów zaznaczone są klasy, na osi y-ów są liczności elementów w poszczególnych klasach Przykładowe histogramy/wykresy rozkładów rys. 3. Wykorzystanie oprogramowania w statystyce opisowej
Przykład 6. Program LibreOffice (odpowiednik Excela w Linuxie) Dane są zebrane w komórkach C1 : C50 arkusza kalkulacyjnego Dane x 1 x 2 x 3 x 4 x 5 x 6 x 7. x 48 x 49 x 50 Podstawowe statystyki możemy obliczyć wywołując odpowiednie funkcje programu, jak w tabeli: Statystyka Średnia Moda Mediana Pierwsy kwartyl Trzeci kwartyl Wariancja Odchylenie standardowe Kurtoza Skośność Rozstęp Minimum Maximum Suma Częstość Funkcja w LibreOffice =AVERAGE($C$1:$C$50) =MODE($C$1:$C$50) =MEDIAN($C$1:$C$50) =QUARTILE($C$1:$C$50,1) =QUARTILE($C$1:$C$50,3) =VAR($C$1:$C$50)) =STDEV($C$1:$C$50)) =KURT($C$1:$C$50)) =SKEW($C$1:$C$50)) =MAX($C$1:$C$50)-MIN($C$1:$C$50) =MIN($C$1:$C$50)) =MAX($C$1:$C$50)) =SUM($C$1:$C$50)) =COUNT($C$1:$C$50)) Uwaga: wariancja (VAR) wyliczana jest tu według wzoru ŝ 2 = 1 n 1 (x i x) 2 i=1 Odpowiednie funkcje w programie OpenOffice
Statystyka Średnia Moda Mediana Pierwszy kwartyl Trzeci kwartyl Wariancja Odchylenie Standardowe Kurtoza Skośność Rozstęp Minimum Maximum Suma Częstość Funkcja w OpenOffice =Średnia($C$1:$C$50) =Wyst.Najczęściej($C$1:$C$50) =Mediana($C$1:$C$50) =Kwartyl($C$1:$C$50,1) =Kwartyl($C$1:$C$50,3) =Wariancja($C$1:$C$50)) =Odch.Standardowe($C$1:$C$50)) =Kurtoza($C$1:$C$50)) =Skośność($C$1:$C$50)) =Maks($C$1:$C$50)-Min($C$1:$C$50) =Min($C$1:$C$50)) =Maks($C$1:$C$50)) =Suma($C$1:$C$50)) =Częstość($C$1:$C$50)) Uwaga: wariancja (VAR) wyliczana jest tu według wzoru Konstrukcja histogramu Program LibreOffice ŝ 2 = 1 n 1 (x i x) 2 1. Wygodnie jest posortować dane - polecenie SORT w zakładce DATA. Dalej określamy klasy: [c 1, c 2 ], [c 2, c 3 ], [c 4, c 5 ] 2. Wyznaczamy częstości n 1, n 2,... (ilości danych w każdym z przedziałów). Można to zrobić zaznaczając komórki, w których mają znaleźć się częstości n i i przejść do zakładki INSERT >FUNCTION >FREQUENCY. Otrzymamy w wyniku i=1
Dane Dane posortowane Klasy Częstości x 1 x (1) c 1 n 1 x 2 x (2) c 2 n 2 x 3 x (3) c 3 n 3 x 4 x (4) c 4 n 4 x 5 x (5) c 5 n 5 x 6 x (6) > c 5 n 6 x 7 x (7) x 8 x (8) x 9 x (9).. x 50 x (50) 4. Histogram otrzymamy zaznaczając myszką komórki w kolumnie Klasy i Częstości i przechodzimy do zakładki INSERT->CHART. Automatycznie pojawi się histogram powiązany z zaznaczonymi danymi. Należy dobrać jeszcze parametry wykresu, oto kilka wskazówek: zaznaczyć w zakładkach 1. data type->column, 2. data range-> data series in columns, first row as a label, first column as a label 3. data series->options->spacing przyjmujemy 0%
W programie OpenOffice postępujemy analogicznie, kilka ilustracji dla polecenia Wstaw-> WYKRES rys. 4. rys. 5.
rys. 6. rys. 7. pole odstęp w edycji grafiki wykresu reguluje wielkość odstępu między kolumnami wykresu
rys. 8. Przykładowe zadania Przykład 7. (Dwa różne modele statystyczne). W każdej z pięciu klas V a, V b,..., V e matematyki uczy inny nauczyciel. W celu porównania efektów kształcenia w tych klasach przeprowadzono wspólny sprawdzian i dokonano analizę statystyczną wyników. Pogrupowano wyniki na uzyskane przez dziewczęta i chłopców. Odpowiednie dane są podane poniżej 1. Liczby uczniów w poszczególnych klasach Klasa Liczba dziewcząt Liczba chłopców Va 12 14 Vb 13 16 Vc 16 11 Vd 14 10 Ve 17 10 2. Rozkład uzyskanych wyników
Klasa Wyniki dziewcząt Wyniki chłopców Va 82, 100, 39, 9, 7, 77, 66 25, 6, 100, 86, 11, 99, 47 45, 60, 40, 20, 85 53, 25, 40, 83, 23, 63, 75 Vb 51, 2, 96, 38, 16, 48, 66 15, 53, 14, 89, 55, 30, 93 44, 78, 53, 2, 13, 55 32, 26, 33, 50, 93, 68, 46, 78, 12 Vc 59, 75, 29, 50, 75, 70, 1 69, 86, 57, 68, 62 85, 44, 16, 17, 63, 12, 43, 95, 78 83, 82, 90, 39, 19, 20 Vd 24, 7, 43, 40, 54, 97, 17 79, 70, 51, 86, 17 50, 30, 25, 71, 53, 75, 9 49, 29, 81, 16, 62 Ve 92, 29, 55, 36, 5, 42, 53, 58 25, 18, 97, 70, 85, 69, 49, 23, 93, 35 61, 69, 43, 17, 14, 26, 44, 63, 67 25, 18, 97, 70, 85, 69, 49, 23, 93, 35 Analizę statystyczną przeprowadza się na podstawie odpowiednio wyliczonych średnich. Proponowane modele 1. Model pełny. Średni wynik testu w każdej grupie ˆx ij = 1 n ij x ijk - pojedyncze wyniki uczniów w komórce ij, n ij - liczba wyników w komórce ij. Tu wszystkie czynniki (kwalifikacje nauczyciela, zdolności uczniów w grupie, samopoczucie w dniu testu, itp.) brane są pod uwagę. n ij x ijk Klasa Wyniki dziewcząt Wyniki chłopców Va 52.500 52.571 Vb 43.231 49.188 Vc 50.750 61.364 Vd 42.500 54.000 Ve 45.529 56.400 2. Model addytywny. Przewidywany średni wynik testu w grupie ma formę gdzie µ = x = 1 n b i = 1 n i 2 5 2 n ij i=1 j=1 n ij j=1 ˆx ij = µ + b i + c j x ijk = 50.188 (średnia ze wszystkich wyników) x ijk x, i = 1, 2,..., 5 - czynnik zależny od kwalifikacji nauczyciela w danej klasie 5 c j = 1 n ij n j x ijk x, j = 1, 2 - czynnik zależny od tego czy uczeń jest i=1 chłopcem, czy dziewczyną.
n i = 2 n ij, n i [26, 29, 27, 24, 27] - liczby uczniów (wyników j=1 sprawdzianów) w poszczególnych klasach n j = 5 n ij, n j [72, 61] - ogólna liczba dziewcząt i chłopców i=1 Tu podstawowymi czynnikami branymi pod uwagę są: kwalifikacje nauczyciela oraz czy uczeń jest chłopcem, czy dziewczyną. Wyniki zebrane są w tabeli Klasa Wyniki dziewcząt Wyniki chłopców Va 49.198 56.482 Vb 43.176 50.460 Vc 51.733 59.017 Vd 43.951 51.235 Ve 46.215 53.499 Przykład 8. (Interpolacja i ekstrapolacja). Dwunastu pacjentów cierpiących na nadciśnienie poddano 8 tygodniowej kuracji testowej nowym lekiem. Pacjenci byli losowo podzieleni na dwie sześcioosobowe grupy. Pacjentom pierwszej grupy podawano dzienną dawkę leku równą 100 mg, a pacjentom drugiej grupy dawkę 200 mg. Pod koniec kuracji zmierzono zmiany ciśnienia. Wyniki pomiarów zebrane są w tabeli: 100 mg -40,-30,-25,-10, 0, 15 200 mg -50,-35,-30,-20,-15, 10 Wyznacz przewidywany średni wynik zmiany ciśnienia, jeżeli dzienna dawka leku wynosiłaby a) 150, b) 175 mg (interpolacja). Jaki wynik przewiduje ten model przy dawce: 0 mg i 300 mg (ekstrapolacja)? Rozwiązanie. Wyliczamy średnie wyników w przypadku każdej dawki leku. 100 mg: x 1 = 15 200 mg: x 2 = 23.333
rys. 9. zmiana ciśnienia w zależności od dawki leku Przykład 9. (Regresja, interpolacja). Na rysunku zaznaczona jest waga każdego z grupy czterech szczeniąt psów rasy beagle wyznaczona po upływie 6, 8, 10 i 12 ich tygodnia życia. rys. 10. waga psów rasy beagle Widoczne linie: prosta i łamana są pomocne do wyznaczenia przewidywanej średniej wagi szczeniąt w innych okresach ich życia. Przykład 10. Rregresja, interpolacja.) Interesuje nas wpływ czasu pieczenia
i temperatury na poziom wilgotności w gotowych wypiekach cukierniczych. Na próbie trzech ciast przeprowadzono dwa doświadczalne wypieki w różnych warunkach. W pierwszym przypadku piekarnik ustawiono na 350 stopni, a czas trwania wypieku wyniósł 20 min., w drugim przypadku temperatura wynosiła 375 stopni, a czas trwania wypieku 25 min. Wyniki poziomu wilgotności w cieście wyrażone w procentach zostały zebrane w tabeli: Time 20 25 Temperature 350 40 36 41 28 27 32 375 32 37 30 19 24 25 Na rys. 11. zaprezentowano model interpolacji dla wyznaczenia przewidywanego średniego poziomu wilgotności w innych warunkach. Jaki otrzymamy wynik w tym modelu, gdy temperatura wypieku jest równa 360 stopni, a czas trwania wypieku 23 minut. rys. 11. zależność wilgotności od temperatury i czasu trwania wypieku Przykład 11. (Statystyczna niezależność.) Studio filmowe przeprowadziło sondaż marketingowy dotyczący nowego filmu, zadając po pierwszych jego projekcjach pytanie widzom, czy film im się podobał na tyle, że byliby skłonni polecić go swoim znajomym. Wyniki sondażu mają wpływ na decyzje o dalszym rozpowszechnianiu filmu. Wyniki sondażu na próbie dwustu widzów są zebrane w tabeli. Oddane głosy Kobiety Mężczyźni Like 51 83 134 Dislike 42 24 66 93 107 200
Na podstawie wyników sondażu, spróbuj ocenić czy na to, że film się podobał, ma wpływ fakt, że widzem jest kobieta, czy mężczyzna. Rozwiązanie. Tabela średnich Średnie Kobiety Mężczyźni Like p F L = 0.255 p ML = 0.415 p L = 0.67 Dislike p F D = 0.21 p MD = 0.12 p D = 0.33 p F = 0.465 p M = 0.535 W przypadku niezależności statystycznej wyników oczekujemy, że w każdej komórce wynik będzie zależał jedynie od proporcji mężczyzn do kobiet oraz proporcji widzów, którym film się podobał do tych, którym się nie podobał. Wtedy np. liczba widzów-kobiet n F L powinna zależeć jedynie od proporcji kobiet w grupie widzów p F oraz proporcji p L widzów, którym film się podobał, co dawałoby n F L = np F p L lub p F L = p F p L, analogiczne związki powinniśmy otrzymać dla p F D, p ML, p MD. Weryfikujemy je z danymi w tabeli. Kobiety Mężczyźni Like p F p L = 0.31155 p M p L = 0.35845 p L = 0.67 Dislike p F p D = 0.15345 p M p D = 0.17655 p D = 0.33 p F = 0.465 p M = 0.535 Wniosek: nie możemy twierdzić, że wyniki są niezależne statystycznie.